草庐IT

Java Quartz 作业持久化

全部标签

java - EMR 版本 4.2.0 上的 Scalding 作业因 VerifyError 而失败

我们有一个Scalding作业,我想使用版本标签4.2.0在AWSElasticMapReduce上运行它。此作业在AMI2.4.2上成功运行。当我们将它升级到AMI3.7.0时,我们遇到了由不兼容的jar引起的java.lang.VerifyError。我们的项目使用1.5版的commons-codec库,但早期的不兼容版本随AMI一起提供。同样,我们的项目使用Scala2.10,但AMI附带2.11版。我们通过添加引导脚本来删除所有匹配commons-codec-1.[234].jar或scala-library-2.11.*.jar的文件来解决这个问题集群。现在我们又要升级到4.

Hadoop 2.7.1 wordcount 作业

我安装了hadoop2.7.1并设置了HDFS..在JDK8上运行。在尝试运行wordcount作业时。我得到以下异常。任何帮助表示赞赏。我深入查看日志并找到了。2016-01-0220:42:17,220INFO[AsyncDispatchereventhandler]org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl:Diagnosticsreportfromattempt_1451788850721_0002_m_000000_3:Exceptionfromcontainer-launch.Containerid

python - 在本地测试 mapreduce 流作业的更优雅的方法?

我有一份用Python编写的mapreduce工作。在将其放入EMR之前,我想在本地对其进行测试。目前我知道的唯一测试方法是运行命令:猫输入文件|python映射器.py|排序-k1,1|pythonreducer>输出文件但管道对我来说有点可怕,因为如果有任何东西破裂我不知道(除了检查此命令的退出代码)。有没有更优雅/pythonic的方式来运行mapreduce并检查它是否成功运行(这样我就可以捕获特定的异常并处理它)?谢谢 最佳答案 一种明显的方法是在本地Hadoop框架中测试您的代码。例如,您可以在VM中使用打包的Hadoo

hadoop - 我们可以在 oozie 工作流 xml 中访问整个 hadoop 作业日志吗?

oozie#emailAction#hadoop我正在使用oozie工作流运行hadooppig作业。如何在工作流xml中访问hadoop作业的整个日志,以便我可以在成功/失败电子邮件操作中使用它?谢谢我需要电子邮件中的示例日志:2016-10-2613:58:30,385[main]INFOorg.apache.pig.tools.pigstats.ScriptState-Pigfeaturesusedinthescript:UNKNOWN2016-10-2613:58:30,480[main]INFOorg.apache.pig.backend.hadoop.executionen

scala - YARN 模式下的 Spark 作业失败

我有一个用Scala编写的Spark程序,它从HDFS读取CSV文件,计算一个新列并将其保存为Parquet文件。我在YARN集群中运行该程序。但每次我尝试启动它时,执行程序都会在某个时候因此错误而失败。您能帮我找出可能导致此错误的原因吗?从执行器上登录16/10/2715:58:10WARNstorage.BlockManager:Puttingblockrdd_12_225failedduetoanexception16/10/2715:58:10WARNstorage.BlockManager:Blockrdd_12_225couldnotberemovedasitwasnotf

hadoop - 启动 MapReduce 作业的不同方式

在ApacheHadoop中仅使用job.waitForCompletion(true)方法和通过ToolRunner.run(newMyClass(),args)启动mapreduce作业有什么区别?我有一个MapReduce作业通过以下两种方式执行:首先如下:publicclassMaxTemperatureextendsConfiguredimplementsTool{publicstaticvoidmain(String[]args)throwsException{intexitCode=ToolRunner.run(newMaxTemperature(),args);Syst

hadoop - 容量调度程序能够在其他队列中提交作业,尽管配置设置正确

下面是我的调度程序xml文件,我限制了对根队列的访问,作为dev2,qa2用户应该只提交他们的队列。但是我也可以以dev2用户的身份将作业提交到QA队列,这不应该发生,我还在RANGERYARN策略和禁用的super策略中进行了相应修改,所有用户都可以访问所有队列,请告诉我。yarn.scheduler.capacity.root.default.user-limit-factor=1yarn.scheduler.capacity.root.default.state=RUNNINGyarn.scheduler.capacity.root.default.maximum-capacit

hadoop - 仅在 HDFS 文件的一部分上执行 MapReduce 作业

我在HDFS(~20Gb)中有一个大文件,我通常在其上执行MapReduce作业。创建了大约170个映射器。使用的InputFormat是FileInputFormat。现在我想只在文件的一部分(例如,文件的前40Mb)上执行MapReduce作业。有没有简单的方法来执行此操作?感谢您的帮助。 最佳答案 大家好,最后,我找到了一个解决方案,包括派生FileInputFormat类并覆盖getSplits方法,以便仅获取与HDFS文件的所需部分相对应的拆分.在这个方法中,我调用父类(superclass)来获取由InputFileFo

hadoop - 当查看在 yarn 上运行的已完成 spark 作业的日志时重定向到容器的日志服务器

我在yarn上运行spark。我的spark版本是2.1.1,hadoop版本是apachehadoop2.7.3。当spark作业以集群模式在yarn上运行时,我可以通过stdout/stderr链接查看Executor的日志,如http://hadoop-slave1:8042/node/containerlogs/container_1500432603585_0148_01_000001/hadoop/stderr?start=-4096但是当作业完成时,通过stdout/stderr链接查看Executor的日志将得到类似的错误页面Redirectingtologserver

hadoop - 如何使用 Dask 在 yarn 上运行并行化的 python 作业?

我有几个关于将Dask与Hadoop/Yarn结合使用的问题。1)如何将Dask连接到Hadoop/YARN并并行化作业?当我尝试使用时:fromdask.distributedimportClientclient=Client('Mynamenode:50070')它导致错误:CommClosedError:in:Streamisclosed:whiletryingtocallremotemethod'identity'我应该传递名称节点或数据节点的地址吗?我可以改用Zookeeper吗?2)如何使用Dask和HDFS3从HDFS读取数据?当我尝试使用以下方式读取文件时:import